Skip to content

Fusion 分析

作者: SeekGene
时长: 9 分钟
字数: 2.5k 字
更新: 2026-01-23
阅读: 0 次
SeekSoul Online

前言

IMPORTANT

Fusion 模块专注于单细胞转录组融合基因检测分析,通过结合 STAR-Fusion 算法和单细胞转录组数据,实现细胞水平的融合基因鉴定、可视化和功能分析。流程支持 human 和 mouse 物种,能够从原始 fastq 文件或预处理数据中识别融合事件,并在单细胞分辨率上进行展示。

基因融合作为重要的分子事件,在肿瘤发生、细胞分化和疾病进展中扮演着关键角色。SeekSoul Online 云平台的 Fusion 模块提供了从原始数据处理到结果可视化的完整解决方案,能够准确识别融合基因、评估其在不同细胞群体中的分布,并提供详细的生物学注释信息。


Fusion 分析理论基础

核心原理

  1. 数据预处理:对输入的 fastq 文件进行质控和过滤,去除低质量 reads 和接头序列,确保后续分析的准确性。
  2. 融合基因检测:使用 STAR-Fusion 算法进行融合事件识别,该算法结合了 STAR 比对器的高灵敏度和专用的融合过滤流程,能够有效识别各种类型的基因融合。
  3. 融合验证与注释:对检测到的融合事件进行验证,评估其可靠性,并提供丰富的注释信息,包括断点位置、支持 reads 数、融合类型等。
  4. 单细胞整合分析:将融合基因检测结果与单细胞转录组数据整合,识别携带特定融合的细胞群体。
  5. 可视化与报告生成:生成 UMAP/TSNE 可视化图,直观展示融合基因在不同细胞群体中的分布,并生成包含详细分析结果的 HTML 报告。

技术特点

特点说明优势
STAR-Fusion 算法基于 STAR 比对器,能够高效识别融合转录本。高灵敏度、低假阳性率。
单细胞水平解析将融合事件映射到特定细胞群体。提供细胞异质性视角。
多物种支持支持 human 和 mouse 基因组分析。适用范围广。
丰富的注释信息提供断点位置、融合类型、功能注释等。便于生物学解读。
直观的可视化UMAP/TSNE 散点图展示融合基因分布。便于结果解释和展示。

关键统计指标

  • JunctionReadCount:包含在融合连接位点处,一条 read 可以拆分匹配到两侧融合基因的 reads 数量。
  • SpanningFragCount:包含融合连接的 reads 数量,该 reads 的 R1 端和 R2 端对应基因不同。
  • FFPM:支持融合的 reads 的标准化结果,即每百万总 reads 数的融合量。
  • LargeAnchorSupport:在假定断点两侧是否存在 reads 的较长碱基序列 (≥25) 匹配,缺少 LargeAnchorSupport 的融合基因通常为假阳性。
  • PROT_FUSION_TYPE:蛋白质融合类型,如 INFRAME (框内融合) 等。

SeekSoul Online 云平台操作指南

分析前准备

CAUTION

  • 输入数据应为成对的 fastq 文件(R1 和 R2),确保文件命名规范,便于系统正确识别样本信息。
  • 确保选择正确的物种(human 或 mouse),这将影响参考基因组的选择和后续分析的准确性。
  • 对于大规模数据,建议先进行数据质量评估,确保数据质量满足分析要求。

参数详解

界面参数说明备注
任务名称英文开头,可含中文/数字/下划线用于报告抬头与任务跟踪
样本信息输入样本名称、R1 和 R2 fastq 文件路径支持多个样本并行分析
物种human / mouse决定使用的参考基因组
备注自定义文本记录分析背景信息

结果解读

结果目录速览

路径内容说明
output/results/fusion/融合基因检测原始结果。包含 STAR-Fusion 输出文件。
output/results/plots/融合基因可视化图表。UMAP/TSNE 散点图。
output/results/meta/元数据信息。细胞注释和统计数据。
report/HTML 报告目录。包含完整分析结果的报告。

融合基因表格解读

列名说明重要性
#FusionName融合基因名称主键标识符
JunctionReadCount连接位点支持 reads 数评估可信度
SpanningFragCount跨融合片段 reads 数评估可信度
LeftGene/RightGene融合涉及的两个基因功能分析基础
LeftBreakpoint/RightBreakpoint融合断点位置结构分析关键
LargeAnchorSupport长锚点支持情况过滤假阳性重要指标
FFPM融合 reads 标准化值定量表达水平
PROT_FUSION_TYPE蛋白质融合类型功能预测依据

关键图表示例

融合基因 UMAP 分布图

下图展示了 NUP98--NSD1 融合基因在单细胞群体中的分布情况。颜色深浅表示 UMI 计数,红色表示高表达该融合的细胞。

融合基因 TSNE 分布图

TSNE 图提供了另一种可视化视角,有助于识别融合基因在不同细胞亚群中的分布模式。

生物学意义解读

  1. 功能分类:根据融合基因的注释信息(如 NUP98:Oncogene),评估其在细胞生物学过程中的潜在作用。
  2. 细胞特异性:分析融合基因在不同细胞类型中的分布模式,确定其表达的细胞特异性。
  3. 融合类型分析:根据融合断点位置和蛋白质融合类型,预测融合蛋白的结构和功能特性。
  4. 数据库关联:通过与 Mitelman、ChimerKB 等数据库的比对,获取已知融合事件的临床和生物学信息。

案例参考

Fusion 模块的分析结果可广泛应用于多种研究场景,特别是在白血病研究领域具有重要价值。以 PPP1R1B::STARD3 融合为例:

  • 新型融合基因发现:PPP1R1B::STARD3 融合是首次在急性髓系白血病 (AML) 中报道的融合事件,通过单细胞 Fusion 分析,可以精确定位携带该融合的细胞群体,了解其在肿瘤异质性中的分布模式。
  • 治疗靶点发现:该融合基因涉及胆固醇代谢和 PI3K/AKT 信号通路,STARD3 参与细胞内胆固醇运输,PPP1R1B 在多种实体瘤中作为癌基因发挥作用,其融合产物可能成为新的治疗靶点。
  • 疾病诊断标志物:该融合基因在 AML 患者中特异性表达,而在 B 细胞急性淋巴细胞白血病 (B-ALL) 中未见报道,具有作为 AML 诊断标志物的潜力。

推荐的实践路径是:

  1. 融合筛选:利用融合基因表格中的支持 reads 数、FFPM 等指标,筛选高可信度的融合事件。
  2. 细胞定位:通过 UMAP/TSNE 可视化,确定融合基因在不同细胞群体中的分布情况。
  3. 功能注释:结合数据库注释信息,评估融合基因的生物学意义和潜在功能影响。
  4. 验证实验:对重要的融合事件进行后续实验验证,如 RT-PCR、FISH 等技术。

注意事项与最佳实践

WARNING

融合基因检测结果中可能存在假阳性,需要结合多个指标进行筛选,如 JunctionReadCount、LargeAnchorSupport 等。对于重要的融合事件,建议进行实验验证。

  • 数据质量控制:确保输入数据质量良好,通过 fastp 等工具进行质控,过滤低质量 reads,提高融合检测的准确性。
  • 参数优化:根据具体研究需求,合理调整分析参数,如物种选择、过滤阈值等。
  • 结果验证:对检测到的重要融合事件,建议使用 RT-PCR、Sanger 测序等方法进行实验验证。
  • 生物学解读:结合现有文献和数据库信息,对融合事件进行深入的生物学解读,避免过度解读或误读。

常见问题 (FAQ)

  1. Q:如何评估融合基因的可信度? A:主要参考以下指标:高 JunctionReadCount 和 SpanningFragCount、存在 LargeAnchorSupport、正常的 Left/RightBreakEntropy 值(通常在 1.5-2.0 之间)、具有已知的生物学功能注释等。

  2. Q:为什么有些融合事件在 UMAP/TSNE 图上分布较散? A:这可能是由于融合事件在多个细胞群体中都有表达,或者样本中存在细胞异质性较高的情况。需要结合具体的生物学背景进行解释。

  3. Q:如何区分真正的融合基因和假阳性? A:除了关注统计指标外,还可以参考以下几点:融合基因是否在多个公共数据库中有记录、断点是否位于内含子区域且符合 GT-AG 剪接信号、融合产物是否具有潜在的生物学功能等。

  4. Q:分析结果中发现了大量线粒体基因相关的融合,这是正常的吗? A:线粒体基因 (MT- 开头) 参与的融合事件较为常见,但很多可能是技术原因导致的假阳性。建议结合注释信息和生物学知识进行筛选,重点关注与已知疾病相关的融合事件。


参考资料

[1] HAAS B J, DOBIN A, LI B, et al. Accuracy assessment of fusion transcript detection via read-mapping and de novo fusion transcript assembly-based methods[J]. Genome Biol, 2019, 20: 213.

[2] HAAS B, DOBIN A, STRANSKY N, et al. STAR-Fusion: Fast and Accurate Fusion Transcript Detection from RNA-Seq[EB/OL]. bioRxiv, 2017.

[3] KUMAR-SINHA C, TOMLINS S A, CHINNAIYAN A M. The emergence of gene fusions as biomarkers and therapeutic targets[J]. Cancer Discov, 2015, 5(1): 36-47.

[4] Detection of novel PPP1R1B::STARD3 fusion transcript in acute myeloid leukemia: a case report[J]. Journal of Medical Case Reports, 2023.

0 条评论·0 条回复